import pandas as pd

# 读取CSV文件为DataFrame
df = pd.read_csv('Spambase.csv')

# 检查缺失值
missing_values = df.isnull().sum()
print(missing_values)

# 处理缺失值，例如使用均值填充
df.fillna(df.mean(), inplace=True)

# 检查重复值
duplicate_rows = df.duplicated().sum()
print("Number of duplicate rows:", duplicate_rows)

# 删除重复值
df.drop_duplicates(inplace=True)

# 检查异常值
# 进行异常值处理，例如基于业务逻辑或统计分析排除异常值

# 保存清洗后的数据集
df.to_csv('cleaned_Spambase.csv', index=False)
